JP2023084609A

JP2023084609A - 変換プログラムおよび変換方法

Info

Publication number: JP2023084609A
Application number: JP2021198907A
Authority: JP
Inventors: 佳祐津金; Keisuke Tsugane
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2023-06-19
Also published as: US20230176851A1

Abstract

【課題】プログラムの並列化効率を向上させること。【解決手段】変換装置１０１は、プログラム１１０内のステートメント間の依存関係に基づいて、プログラム１１０内のステートメントをノードとし、ステートメント間の依存関係をエッジとした有向グラフ１２０を生成する。変換装置１０１は、有向グラフ１２０内のエッジが表す依存関係に基づいて、一部のループ処理が先行または後続する他ノードと依存関係にあるノードを有向グラフから検出する。変換装置１０１は、検出したノードを、一部のループ処理を持つ第１ノードと、一部のループ処理以外のループ処理を持つ第２ノードに分割し、分割した第１ノードと他ノードを融合し、融合後のノードに対してデータアクセスパターンに基づく依存情報を付与することによって、有向グラフ１２０を更新する。変換装置１０１は、更新後の有向グラフ１２０に基づいて、プログラム１１０を変換する。【選択図】図１Ａ

Description

本発明は、変換プログラムおよび変換方法に関する。

ＨＰＣ（ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇ）分野において、共有メモリ型プロセッサ向け並列プログラミングは、ＯｐｅｎＭＰ（ＯｐｅｎＭｕｌｔｉ－Ｐｒｏｃｅｓｓｉｎｇ）によるデータ並列記述が主流である。データ並列では、並列化可能ループを分割して各スレッドに割り当てて並列に実行する。また、ループ実行後に演算完了を保証するため、並列実行に用いたスレッド間で全体同期が行われる。

先行技術としては、プログラムの文および制御の依存関係を表す複数の依存要素で構成されるプログラム解析情報を用いて、可逆的に縮退可能な依存要素群を求め、依存要素群を縮退することで依存要素が縮退されたプログラム依存グラフを生成するものがある。また、ユーザが入力した並列コードの生成方針を受けて、コードの処理を分割するとともに、その演算量と処理内容、再利用データのキャッシュ利用、主記憶アクセスデータ量から、実行サイクルを予測しながら並列化方法を求める技術がある。

国際公開第２００７／０９６９３５号特開２００９－１０４４２２号公報

しかしながら、従来技術では、プログラムの並列化効率が低下する場合がある。例えば、共有メモリ型プロセッサのコア数の増加や演算のばらつきにより全体同期のコストが増加すると、並列化効率が低下してプログラムの性能が低下する。

一つの側面では、本発明は、プログラムの並列化効率を向上させることを目的とする。

１つの実施態様では、プログラム内のステートメント間の依存関係に基づいて、前記プログラム内のステートメントをノードとし、前記依存関係をエッジとした有向グラフを生成し、生成した前記有向グラフ内のエッジが表す依存関係に基づいて、一部のループ処理が先行または後続する他ノードと依存関係にあるノードを前記有向グラフから検出し、検出した前記ノードを、前記一部のループ処理を持つ第１ノードと、前記一部のループ処理以外のループ処理を持つ第２ノードとに分割し、分割した前記第１ノードと前記他ノードとを融合し、融合後のノードに対してデータアクセスパターンに基づく依存情報を付与することによって、前記有向グラフを更新し、更新後の前記有向グラフに基づいて、前記プログラムを変換する、変換プログラムが提供される。

本発明の一側面によれば、プログラムの並列化効率を向上させることができるという効果を奏する。

図１Ａは、実施の形態１にかかる変換方法の一実施例を示す説明図である。図１Ｂは、スレッド間の全体同期の一例を示す説明図である。図１Ｃは、依存付きタスク並列記述のプログラムの一例を示す説明図である。図２は、実施の形態２にかかる情報処理装置２００のハードウェア構成例を示すブロック図である。図３は、変換対象のプログラムの具体例を示す説明図である。図４は、実施の形態２にかかる情報処理装置２００の機能的構成例を示すブロック図である。図５Ａは、有向グラフＧの具体例を示す説明図である。図５Ｂは、データアクセス情報の具体例を示す説明図である。図６は、有向グラフＧの更新例を示す説明図（その１）である。図７は、有向グラフＧの更新例を示す説明図（その２）である。図８は、有向グラフＧの更新例を示す説明図（その３）である。図９は、有向グラフＧの更新例を示す説明図（その４）である。図１０は、先行ノードの分割例を示す説明図である。図１１は、後続ノードのタスク粒度の決定例を示す説明図である。図１２は、変換後のプログラムＰの具体例を示す説明図である。図１３は、実施の形態２にかかる情報処理装置２００の変換処理手順の一例を示すフローチャートである。図１４は、分割・融合処理の具体的処理手順の一例を示すフローチャートである。

以下に図面を参照して、本発明にかかる変換プログラムおよび変換方法の実施の形態を詳細に説明する。

（実施の形態１）
図１Ａは、実施の形態１にかかる変換方法の一実施例を示す説明図である。図１において、変換装置１０１は、データ並列記述のプログラムを、依存付きタスク並列記述のプログラムに変換するコンピュータである。変換装置１０１は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）である。また、変換装置１０１は、サーバであってもよい。

ここで、データ並列記述とは、データ並列により演算を行うための記述である。ＨＰＣ分野において、共有メモリ型プロセッサ向け並列プログラミングは、ＯｐｅｎＭＰによるデータ並列記述が用いられることが多い。ＯｐｅｎＭＰは、共有メモリ型マシンで並列プログラミングを可能にするＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）である。

ＯｐｅｎＭＰでは、プラグマ・ディレクティブ（＃ｐｒａｇｍａ）と呼ばれるコンパイラへの指示文を用いて記述される。例えば、並列化可能ループに対して指示文を指定することで、ループを分割して各スレッドに割り当て並列に実行することができる。ループ実行後に演算完了を保証するため、並列実行に用いたスレッド間で全体同期が行われる。ただし、複数ループのループ間で依存関係がない場合は、スレッド間で同期をしないことも可能である。

一方で、共有メモリ型プロセッサのコア数は年々増加しており、全体同期のコストは増加する傾向にある。ここで、図１Ｂを用いて、スレッド間の全体同期について説明する。

図１Ｂは、スレッド間の全体同期の一例を示す説明図である。図１Ｂにおいて、各スレッド０～３は、各コアに割り当てられたスレッドである。ここでは、並列化可能ループが分割され、各スレッド０～３に割り当てられて並列化されているとする。

この場合、ループ実行後に演算完了を保証するために、スレッド間で全体同期が行われる。図１Ｂの例では、全体同期によって，スレッド２（コア）の演算が終わるまで、他のスレッド０，１，３は、他の演算を始めることができない。

このため、プログラムの高速化には、例えば、できる限り全体同期を減らし、より細粒度な同期にしたうえで、空いているスレッド（コア）で次々に演算を開始することが求められる。しかし、ループ間で依存関係があるかどうかの判定や、依存関係が無くなるようなプログラミングがユーザに求められるため、実装コストが増加するという問題がある。

また、依存付きタスク並列記述は、演算をタスク化し、タスク内で使用するデータのｒｅａｄ／ｗｒｉｔｅを陽（明示的）に記述することで、全体同期からタスク間の同期として、プログラムを高速化するための記述である。ＯｐｅｎＭＰによる依存付きタスク並列では、タスク間のデータ依存記述（ｉｎ，ｏｕｔ，ｉｎｏｕｔ）に基づいて、タスクが並列実行される。

図１Ｃは、依存付きタスク並列記述のプログラムの一例を示す説明図である。図１Ｃにおいて、プログラムＸは、依存付きタスク並列記述によって実装されたプログラムの一例である。プログラムＸにおいて、ｔａｓｋ１とｔａｓｋ２の間に依存関係はないため、並列実行される。一方、ｔａｓｋ３は、ｔａｓｋ１，２とフロー依存（変数Ａ，Ｂに対するＲｅａｄＡｆｔｅｒＷｒｉｔｅ）があるため、全体同期ではなく、タスク間同期後に実行される。

ここで、データ並列は、データを分割してスレッドへマッピングする。これに対して、タスク並列は、タスクを生成し、コンパイラのランタイムによって実行完了したタスクから依存が解消されたかを判断して実行させるため、手順が複雑で多い。このため、データ並列と比較して、タスク並列のオーバーヘッドは大きい。

このように、データ並列記述は、全体同期のコストが大きい。さらに、プログラム全体の依存関係をユーザが把握して、全体同期を減らすようなプログラミングをするのは困難である。また、タスク並列は、データ並列と比較してオーバーヘッドが大きい。

そこで、実施の形態１では、適切な粒度のタスクを設定して並列性を獲得しつつ、タスク生成数を減らして並列化効率を高めるように、データ並列記述で実装されているプログラムを依存付きタスク並列記述へ自動変換する変換方法について説明する。以下、変換装置１０１の処理例（下記（１）～（４））について説明する。

（１）変換装置１０１は、プログラム内のステートメント間の依存関係に基づいて、プログラム内のステートメントをノードとし、ステートメント間の依存関係をエッジとした有向グラフを生成する。ここで、プログラムは、変換対象となるプログラムであり、例えば、データ並列記述のプログラムである。

ステートメントは、プログラムの構成単位となる一つ一つの手続き、命令、宣言などの文であり、例えば、式、関数呼び出しなどを含む。式は、例えば、値、変数、演算子、関数などの組み合わせである。ステートメント間の依存関係は、例えば、フロー依存、逆フロー依存、出力依存などのデータ依存に基づく関係である。

フロー依存は、書き込んだデータをその後読み出すものである（ＲｅａｄＡｆｔｅｒＷｒｉｔｅ）。逆フロー依存は、フロー依存と逆であり、読み込み後に書き込みを行うものである（ＷｒｉｔｅＡｆｔｅｒＲｅａｄ）。出力依存は、書き込みが行われた後に、別の値が書き込まれるものである（ＷｒｉｔｅＡｆｔｅｒＷｒｉｔｅ）。ステートメント間に、フロー依存、逆フロー依存および出力依存のいずれのデータ依存に基づく依存関係があっても並列に実行することはできない。

有向グラフは、ノードと、ノード間を接続するエッジとを含むグラフであって、各エッジが向きを持つグラフである。有向グラフには、エッジにより別のノードに接続されていないノードが含まれていてもよい。ノードは、例えば、ステートメントのデータアクセス情報を有する。データアクセス情報は、例えば、ループ処理のアクセス範囲や、アクセスパターンを示す。アクセスパターンは、例えば、アクセス（ｒｅａｄ／ｗｒｉｔｅ）先の変数などで表される。

具体的には、例えば、変換装置１０１は、コンパイラによるプログラム１１０の依存解析により、プログラム１１０内のステートメント間の依存関係を解析する。プログラム１１０は、データ並列記述のプログラムである。そして、変換装置１０１は、プログラム１１０の依存解析の結果に基づいて、有向グラフ１２０を生成する。

有向グラフ１２０は、プログラム１１０内のステートメントを表すノード（例えば、ノード１２０－１～１２０－４）と、ステートメント間の依存関係を表すエッジ（例えば、エッジ１２０－１１～１２０－１３）とを含む。依存関係は、データ依存（フロー依存、逆フロー依存、出力依存）に基づく関係である。

（２）変換装置１０１は、生成した有向グラフ内のエッジが表す依存関係に基づいて、一部のループ処理が先行または後続する他ノードと依存関係にあるノードを有向グラフから検出する。例えば、ノード１２０－１が表すステートメント１には、Ａ［ｉ］に対して、「ｉ＝０」から「ｉ＝Ｎ－１」までの範囲の読み込みと書き込みを行うループ処理があるとする。

また、ノード１２０－２が表すステートメント２には、Ａ［０］に対するリードのみがあるとする。この場合、ステートメント１とステートメント２には、Ａ［０］のみに依存がある。また、「ｉ＝１」から「ｉ＝Ｎ－１」までの範囲では、ステートメント１とステートメント２に依存がない。

ここでは、有向グラフ１２０からノード１２０－１が検出された場合を想定する。ノード１２０－１は、一部のループ処理（ｉ＝０）が先行する他ノード１２０－２と依存関係にあるノードである。

（３）変換装置１０１は、検出したノードを、一部のループ処理を持つ第１ノードと、一部のループ処理以外のループ処理を持つ第２ノードとに分割し、分割した第１ノードと他ノードとを融合する。一部のループ処理は、検出したノードが持つループ処理のうち、先行または後続する他ノードと依存関係にあるループ処理である。ノードの融合とは、２つのノードをまとめて１タスクとして扱うことである。

そして、変換装置１０１は、融合後のノードに対してデータアクセスパターンに基づく依存情報を付与することによって、有向グラフを更新する。依存情報とは、各ノードの処理（タスク）において、どのデータに対してどういうアクセス（ｒｅａｄ，ｗｒｉｔｅ）があるかを示す情報である。例えば、依存情報は、＃ｐｒａｇｍａｏｍｐの後に付与される「ｄｅｐｅｎｄ（ｏｕｔ：Ａ［０］）」といった情報を含む。依存情報によれば、別のタスクとの間にどのような依存があるかを判断可能となる。

具体的には、例えば、変換装置１０１は、ノード１２０－１を第１ノード１２０－１ａと第２ノード１２０－１ｂとに分割する。第１ノード１２０－１ａは、ノード１２０－１が持つループ処理のうち、先行する他ノード１２０－２と依存関係にある一部のループ処理を持つノードである。第２ノード１２０－１ｂは、ノード１２０－１が持つループ処理のうち、先行する他ノード１２０－２と依存関係にある一部のループ処理以外のループ処理を持つノードである。

つぎに、変換装置１０１は、分割した第１ノード１２０－１ａと他ノード１２０－２とを融合する。融合後のノード１３０は、第１ノード１２０－１ａと他ノード１２０－２とを１タスクとして融合したものである。そして、変換装置１０１は、融合後のノード１３０に対してデータアクセスパターンに基づく依存情報を付与することによって、有向グラフ１２０を更新する。

より詳細に説明すると、例えば、変換装置１０１は、融合後のノード１３０に対して、依存情報１４０を付与する。依存情報１４０は、融合後のノード１３０を一つのタスクとして実行する際に、どのデータに対してどういうアクセス（ｒｅａｄ，ｗｒｉｔｅ）があるかを示す。

（４）変換装置１０１は、更新後の有向グラフに基づいて、プログラムを変換する。具体的には、例えば、変換装置１０１は、更新後の有向グラフ１２０に基づいて、データ並列記述のプログラム１１０を、依存付きタスク並列記述のプログラム１５０に変換する。

ここで、コンパイラの既存の機能として、プログラムを有向グラフ化した情報をもとに、元のプログラムを復元するような、可逆的な変換を行う機能がある。更新後の有向グラフ１２０に基づく依存付きタスク並列記述のプログラム１５０への変換は、例えば、このようなコンパイラの既存の機能を利用して行うことができる。

このように、実施の形態１にかかる変換装置１０１によれば、有向グラフ内のノードのループ処理の一部分にのみ先行または後続する他ノードと依存関係がある場合に、その一部分のみを別ノードに分割して、他ノードと融合することができる。これにより、タスク並列化にあたり、並列性を獲得しつつタスク生成数を抑えることができ、並列化効率を向上させることができる。具体的には、例えば、変換装置１０１は、ループ長やタスク化対象の処理のデータアクセスパターンをもとにノードの分割、融合を行うことで、並列性を見出してプログラムの性能を向上させることができる。

（実施の形態２）
つぎに、実施の形態２にかかる変換方法について説明する。以下の説明では、図１に示した変換装置１０１を、情報処理装置２００に適用する場合を例に挙げて説明する。なお、実施の形態１で説明した箇所と同様の箇所については説明を省略する。

まず、図２を用いて、実施の形態２にかかる情報処理装置２００のハードウェア構成例について説明する。情報処理装置２００は、例えば、ユーザが使用するＰＣ、タブレットＰＣなどである。ただし、情報処理装置２００は、ユーザが使用するＰＣなどからアクセス可能なサーバであってもよい。

図２は、実施の形態２にかかる情報処理装置２００のハードウェア構成例を示すブロック図である。図２において、情報処理装置２００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、メモリ２０２と、ディスクドライブ２０３と、ディスク２０４と、通信Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２０５と、ディスプレイ２０６と、入力装置２０７と、可搬型記録媒体Ｉ／Ｆ２０８と、可搬型記録媒体２０９と、を有する。また、各構成部は、バス２２０によってそれぞれ接続される。

ここで、ＣＰＵ２０１は、情報処理装置２００の全体の制御を司る。ＣＰＵ２０１は、複数のコアを有していてもよい。メモリ２０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭがＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のプログラムを記憶し、ＲＯＭがアプリケーションプログラムを記憶し、ＲＡＭがＣＰＵ２０１のワークエリアとして使用される。メモリ２０２に記憶されるプログラムは、ＣＰＵ２０１にロードされることで、コーディングされている処理をＣＰＵ２０１に実行させる。

ディスクドライブ２０３は、ＣＰＵ２０１の制御に従ってディスク２０４に対するデータのリード／ライトを制御する。ディスク２０４は、ディスクドライブ２０３の制御で書き込まれたデータを記憶する。ディスク２０４としては、例えば、磁気ディスク、光ディスクなどが挙げられる。

通信Ｉ／Ｆ２０５は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して外部のコンピュータに接続される。そして、通信Ｉ／Ｆ２０５は、ネットワーク２１０と装置内部とのインターフェースを司り、外部のコンピュータからのデータの入出力を制御する。通信Ｉ／Ｆ２０５には、例えば、モデムやＬＡＮアダプタなどを採用することができる。

ディスプレイ２０６は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する表示装置である。ディスプレイ２０６としては、例えば、液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどを採用することができる。

入力装置２０７は、文字、数字、各種指示などの入力のためのキーを有し、データの入力を行う。入力装置２０７は、キーボードやマウスなどであってもよく、また、タッチパネル式の入力パッドやテンキーなどであってもよい。

可搬型記録媒体Ｉ／Ｆ２０８は、ＣＰＵ２０１の制御に従って可搬型記録媒体２０９に対するデータのリード／ライトを制御する。可搬型記録媒体２０９は、可搬型記録媒体Ｉ／Ｆ２０８の制御で書き込まれたデータを記憶する。可搬型記録媒体２０９としては、例えば、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリなどが挙げられる。

なお、情報処理装置２００は、上述した構成部のうち、例えば、ディスクドライブ２０３、ディスク２０４、可搬型記録媒体Ｉ／Ｆ２０８、可搬型記録媒体２０９を有していなくてもよい。また、図１に示した変換装置１０１についても、情報処理装置２００と同様のハードウェア構成により実現することができる。

（変換対象のプログラムの具体例）
つぎに、図３を用いて、変換対象のプログラムの具体例について説明する。

図３は、変換対象のプログラムの具体例を示す説明図である。図３において、プログラム３００は、ＯｐｅｎＭＰによるデータ並列記述で実装されたプログラムである。ＯｐｅｎＭＰの指示文は、プログラム３００内で並列化を行う場所に挿入され、並列化の方法を指定する。

ＯｐｅｎＭＰの指示文は、プラグマ（＃ｐｒａｇｍａ）によって記述され、「＃ｐｒａｇｍａｏｍｐ・・・」のような形をとる。例えば、「＃ｐｒａｇｍａｏｍｐｐａｒａｌｌｅｌ」は、並列に実行される区間（並列リージョン）を指定する。また、「＃ｐｒａｇｍａｏｍｐｆｏｒ」は、ｆｏｒ文を並列化する。また、「＃ｐｒａｇｍａｏｍｐｓｉｎｇｌｅ」は、１スレッドだけが実行するブロックであることを指定する。

ｓｔｍｔ０，ｓｔｍｔ１，ｓｔｍｔ２，ｓｔｍｔ３は、ステートメントを識別する識別子である。ｓｔｍｔ０は、「Ａ［ｉ］＝Ａ［ｉ］＋Ｂ［ｉ］」に対応する。ｓｔｍｔ１は、「ｆｕｎｃ１（Ａ［０］）」に対応する。ｓｔｍｔ２は、「Ａ［ｉ］＝Ａ［ｉ］＋Ｃ［ｉ］」に対応する。ｓｔｍｔ３は、「ｆｕｎｃ２（）」に対応する。

（情報処理装置２００の機能的構成例）
つぎに、実施の形態２にかかる情報処理装置２００の機能的構成例について説明する。

図４は、実施の形態２にかかる情報処理装置２００の機能的構成例を示すブロック図である。図４において、情報処理装置２００は、受付部４０１と、生成部４０２と、検出部４０３と、更新部４０４と、変換部４０５と、出力部４０６と、を含む。受付部４０１～出力部４０６は制御部となる機能であり、具体的には、例えば、図２に示したメモリ２０２、ディスク２０４、可搬型記録媒体２０９などの記憶装置に記憶されたプログラムをＣＰＵ２０１に実行させることにより、または、通信Ｉ／Ｆ２０５により、その機能を実現する。各機能部の処理結果は、例えば、メモリ２０２、ディスク２０４などの記憶装置に記憶される。

受付部４０１は、変換対象となるプログラムを受け付ける。変換対象となるプログラムは、データ並列記述のプログラムであり、例えば、ＨＰＣ向けのプログラムである。以下の説明では、変換対象となるプログラムを「プログラムＰ」と表記する場合がある。プログラムＰは、例えば、図３に示したようなプログラム３００である。

具体的には、例えば、受付部４０１は、図２に示した入力装置２０７を用いたユーザの操作入力により、プログラム３００を受け付ける。また、受付部４０１は、通信Ｉ／Ｆ２０５を介して、外部のコンピュータからプログラム３００を受信することにより、プログラム３００を受け付けることにしてもよい。

生成部４０２は、プログラムＰ内のステートメント間の依存関係に基づいて、プログラムＰ内のステートメントをノードとし、ステートメント間の依存関係をエッジとした有向グラフＧを生成する。ステートメントは、プログラムの構成単位であり、例えば、式、関数呼び出しなどを含む。ステートメント間の依存関係は、例えば、フロー依存、逆フロー依存および出力依存のいずれかのデータ依存に基づく関係である。ノードは、例えば、ステートメントのデータアクセス情報を有する。

以下の説明では、プログラムＰ内のステートメントをノードとし、ステートメント間の依存関係をエッジとした有向グラフを「有向グラフＧ」と表記する場合がある。

具体的には、例えば、生成部４０２は、コンパイラによるプログラムＰの依存解析により、プログラムＰ内のステートメント間の依存関係を解析する。コンパイラは、高級言語で記述されたプログラムを、コンピュータが直接解読して実行できる機械語に変換する翻訳プログラムである。依存関係は、例えば、ステートメント間に、どの変数のどの範囲に依存があるかによって表される。そして、生成部４０２は、プログラムＰの依存解析の結果に基づいて、有向グラフＧを生成する。

有向グラフＧの具体例については、図５Ａおよび図５Ｂを用いて後述する。以下の説明では、有向グラフＧ内の複数のノードのうち、任意のノードを「ノードＮｉ」と表記し、ノードＮｉとは異なる他ノードを「他ノードＮｊ（ｊ≠ｉ）」と表記する場合がある。

検出部４０３は、生成された有向グラフＧ内のエッジが表す依存関係に基づいて、一部のループ処理が先行または後続する他ノードＮｊと依存関係にあるノードＮｉを有向グラフＧから検出する。ループ処理は、繰り返し実行される処理である。

検出対象となるノードＮｉは、少なくともループ処理を持つノードである。ノードＮｉに先行する他ノードＮｊとは、ノードＮｉとエッジにより接続された、当該エッジの根元側のノードＮｊである。また、ノードＮｉに後続する他ノードＮｊとは、ノードＮｉとエッジにより接続された、当該エッジの先側のノードである。

具体的には、例えば、検出部４０３は、どの変数のどの範囲に依存があるかを表すノードＮｉ，Ｎｊ間の依存関係に基づいて、ノードＮｉの一部のループ処理が他ノードＮｊと依存関係にあるか否かを判断する。ここで、一部のループ処理が他ノードＮｊと依存関係にある場合、検出部４０３は、ノードＮｉを検出する。

有向グラフＧからのノードの検出例については、図６を用いて後述する。

更新部４０４は、検出されたノードＮｉを第１ノードと第２ノードとに分割し、分割した第１ノードと他ノードＮｊとを融合し、融合後のノードに対してデータアクセスパターンに基づく依存情報を付与することによって、有向グラフＧを更新する。

ここで、第１ノードは、ノードＮｉのループ処理のうち、他ノードＮｊと依存関係にある一部のループ処理のみを持つノードである。第２ノードは、ノードＮｉのループ処理のうち、他ノードＮｊと依存関係にある一部のループ処理以外のループ処理のみを持つノードである。また、ノードの融合とは、２つのノードをまとめて１タスクとして扱うことであり、タスクの粒度を設定することに相当する。

なお、融合後のノードと他ノードとの間に依存関係が存在する場合は、融合後のノードと他ノードとがエッジによって接続される。また、第２ノードと他ノードとの間に依存関係が存在する場合は、第２ノードと他ノードとがエッジによって接続される。

データアクセスパターンに基づく依存情報とは、各ノードの処理（タスク）において、どのデータに対してどういうアクセス（ｒｅａｄ，ｗｒｉｔｅ）があるかを示す情報である。融合後のノードに付与される依存情報は、例えば、融合後のノードのデータアクセス情報から特定される。

依存情報は、例えば、＃ｐｒａｇｍａｏｍｐの後に付与される「ｄｅｐｅｎｄ（ｏｕｔ：Ａ［０］）」といった情報を含む。ｏｕｔ：Ａ［０］は、Ａ［０］に対する書き込みを示す。依存情報は、コンパイラのランタイムにおいて、別のタスクとの間にどのような依存があるかを判断可能にするための情報である。

ノードＮｉの分割例については、図７を用いて後述する。また、ノードＮｉから分割した第１ノードと他ノードＮｊとの融合例については、図８および図９を用いて後述する。

また、更新部４０４は、分割した第２ノードに先行するノードがループ処理を持つか否かを判断する。この際、第２ノードに先行するノードが複数存在する場合、更新部４０４は、第２ノードに先行するいずれかのノードがループ処理を持つか否かを判断する。

ここで、第２ノードに先行するノードがループ処理を持たない場合、更新部４０４は、ハードウェア情報に基づいて、第２ノードが持つループ処理を複数のタスクに分割する際のタスク粒度（分割粒度）を決定する。ハードウェア情報は、変換後のプログラムＰを実行するハードウェアの情報であり、例えば、タスクが割り当てられるコアのキャッシュラインのサイズを含む。タスク粒度は、例えば、ループ長によって表される。

具体的には、例えば、更新部４０４は、キャッシュラインのサイズに収まるループ長となるようにタスク粒度を決定する。そして、更新部４０４は、第２ノードに対して、決定したタスク粒度を設定するとともにデータアクセスパターンに基づく依存情報を付与することによって、有向グラフＧを更新する。第２ノードに付与される依存情報は、例えば、第２ノードのデータアクセス情報とタスク粒度から特定される。

これにより、更新部４０４は、第２ノードが持つループ処理を分割して複数のタスクで並列実行可能とする。この際、更新部４０４は、タスク生成数を抑えるため、一回で処理できるデータ量に相当するキャッシュラインのサイズを考慮してタスク粒度（分割粒度）を設定する。ただし、第２ノードが持つループ処理の繰返し回数が１回の場合、更新部４０４は、第２ノードが持つループ処理の分割を行わない（１タスクで実行）。

第２ノードに対するタスク粒度の設定例および依存情報の付与例については、図９を用いて後述する。依存情報には、例えば、設定されたタスク粒度が含まれる。

一方、第２ノードに先行するノードがループ処理を持つ場合、更新部４０４は、当該先行するノードとデータアクセス範囲が揃うように、第２ノードが持つループ処理を複数のタスクに分割する際のタスク粒度を決定する。データアクセス範囲は、ループ処理を分割した各タスクがどのデータのどの範囲にアクセスするかを示す。具体的には、例えば、更新部４０４は、第２ノードに先行するノードがループ処理を持ち、かつ、先行するノードと全てのループ処理に依存関係がある場合に、更新部４０４は、当該先行するノードとデータアクセス範囲が揃うようなループ長を決定する。

そして、更新部４０４は、第２ノードに対して、決定したタスク粒度を設定するとともにデータアクセスパターンに基づく依存情報を付与することによって、有向グラフＧを更新する。これにより、更新部４０４は、第２ノードが持つループ処理を分割して複数のタスクで並列実行可能とする。この際、更新部４０４は、ループ処理単位で粒度設定を行うと性能が低下する可能性があるため、先行するノードとデータアクセス範囲が揃うようにタスク粒度を設定する。

先行するノードとデータアクセス範囲が揃うようなタスク粒度の決定例については、図１０および図１１を用いて後述する。

なお、有向グラフＧが更新された場合、検出部４０３は、例えば、更新後の有向グラフＧから、一部のループ処理が先行または後続する他ノードＮｊと依存関係にあるノードＮｉを検出する。また、タスク粒度の設定処理は、例えば、有向グラフＧ（更新後の有向グラフＧ）内のループ処理を持つ全てのノードについて行われる。また、依存情報の付与処理は、例えば、有向グラフＧ（更新後の有向グラフＧ）内の各ノードについて行われる。

変換部４０５は、更新後の有向グラフＧに基づいて、プログラムＰを変換する。具体的には、例えば、更新部４０４は、更新後の有向グラフＧに基づいて、データ並列記述のプログラムＰを、依存付きタスク並列記述のプログラムＰに変換する。

より詳細に説明すると、例えば、変換部４０５は、コンパイラの既存の機能を用いて、更新後の有向グラフＧから、演算をタスク化した依存付きタスク並列記述のプログラムＰを生成する。依存付きタスク並列記述のプログラムＰでは、更新後の有向グラフＧ内の各ノードに付与された依存情報に基づいて、タスク内で使用されるデータのｒｅａｄ／ｗｒｉｔｅが陽に記述される。

変換後のプログラムＰの具体例については、図１２を用いて後述する。

出力部４０６は、変換後のプログラムＰを出力する。出力部４０６の出力形式としては、例えば、メモリ２０２、ディスク２０４などの記憶装置への記憶、通信Ｉ／Ｆ２０５による他のコンピュータへの送信などがある。これにより、出力部４０６は、例えば、変換後のプログラムＰを、コンパイラのランタイムに渡したり、他のコンピュータ（例えば、実行装置）に送信したりする。

なお、上述した情報処理装置２００の機能部（受付部４０１～出力部４０６）は、例えば、情報処理装置２００のコンパイラによって実現される。

（有向グラフＧの具体例）
つぎに、図５Ａおよび図５Ｂを用いて、有向グラフＧの具体例について説明する。

図５Ａは、有向グラフＧの具体例を示す説明図である。図５Ｂは、データアクセス情報の具体例を示す説明図である。図５Ａにおいて、有向グラフ５００は、図３に示したプログラム３００内のステートメント間の依存関係に基づいて生成される有向グラフＧの一例である。依存関係は、データ依存（フロー依存、逆フロー依存、出力依存）に基づく関係である。

有向グラフ５００は、ノードＮ０～Ｎ３と、エッジｅ１～ｅ３とを含む。ノードＮ０は、プログラム３００内のｓｔｍｔ（ステートメント）０を表す。ノードＮ１は、プログラム３００内のｓｔｍｔ１を表す。ノードＮ２は、プログラム３００内のｓｔｍｔ２を表す。ノードＮ３は、プログラム３００内のｓｔｍｔ３を表す。

エッジｅ１は、ｓｔｍｔ０とｓｔｍｔ１との依存関係を表す。具体的には、エッジｅ１は、ｓｔｍｔ０，１間に変数Ａ［０］の依存（逆フロー依存）があることを表す。エッジｅ２は、ｓｔｍｔ０とｓｔｍｔ２との依存関係を表す。具体的には、エッジｅ２は、ｓｔｍｔ０，２間に、変数Ａ［０：Ｎ］の依存（出力依存）があることを表す。［０：Ｎ］のＮは、要素数を示す。［０：Ｎ］は、０，１，…，Ｎ－１の範囲を示す。エッジｅ３は、ｓｔｍｔ１とｓｔｍｔ２との依存関係を表す。具体的には、エッジｅ３は、ｓｔｍｔ１，２間に変数Ａ［０］の依存（フロー依存）があることを表す。ノードＮ３には、別のノードは接続されていない。

また、各ノードＮ０～Ｎ３は、例えば、図５Ｂに示すような、各ｓｔｍｔ０～ｓｔｍｔ３のデータアクセス情報５０１～５０４を有する。データアクセス情報５０１～５０４は、各ｓｔｍｔ０～ｓｔｍｔ３のループ処理のアクセス範囲や、アクセス（ｒｅａｄ／ｗｒｉｔｅ）先の変数などを示す。

データアクセス情報５０１は、ノードＮ０が有する情報であり、ｓｔｍｔ０のループ処理のアクセス範囲「ｌｏｏｐ：０＜＝ｉ＜Ｎ」と、読み込み先の変数「Ａ［ｉ］，Ｂ［ｉ］」と、書き込み先の変数「Ａ［ｉ］」を示す。また、データアクセス情報５０２は、ノードＮ１が有する情報であり、ｓｔｍｔ１の読み込み先の変数「Ａ［０］」を示す。

また、データアクセス情報５０３は、ノードＮ２が有する情報であり、ｓｔｍｔ２のループ処理のアクセス範囲「ｌｏｏｐ：０＜＝ｉ＜Ｎ」と、読み込み先の変数「Ａ［ｉ］，Ｃ［ｉ］」と、書き込み先の変数「Ａ［ｉ］」を示す。また、データアクセス情報５０４は、ノードＮ３が有する情報であり、ｓｔｍｔ３にはループ処理がなく、アクセス先の変数もないことを示す。

（有向グラフＧの更新例）
つぎに、図６～図９を用いて、有向グラフＧの更新例について説明する。まず、図６を用いて、有向グラフＧからのノードＮｉの検出例について説明する。ノードＮｉは、一部のループ処理が先行または後続する他ノードＮｊと依存関係にあるノードである。

図６～図９は、有向グラフＧの更新例を示す説明図である。検出部４０３は、例えば、有向グラフ５００のルートノード（ノードＮ０）から後続ノードを順次探索することにより、一部のループ処理が先行または後続する他ノードＮｊと依存関係にあるノードＮｉを有向グラフ５００から検出する。

図６に示した有向グラフ５００の例では、検出部４０３は、例えば、「ノードＮ０⇒ノードＮ１⇒ノードＮ２⇒ノードＮ３」の順番で探索することにより、有向グラフ５００からノードＮｉを検出する。ここでは、ｓｔｍｔ０（ノードＮ０）とｓｔｍｔ１（ノードＮ１）との間には、変数Ａの［０］に対する依存がある。

具体的には、ｓｔｍｔ０は、ｉの０～Ｎ－１まで、変数Ａに対してｒｅａｄとｗｒｉｔｅがあり、変数Ｂに対してｒｅａｄがある。ｓｔｍｔ１は、変数Ａの［０］に対してｒｅａｄがある。このため、ｓｔｍｔ０とｓｔｍｔ１との間には、変数Ａの［０］に対する依存がある。この場合、検出部４０３は、有向グラフ５００からノードＮ０を検出する。ノードＮ０は、ノードＮ０が持つループ処理のうち、一部のループ処理（Ａ［０］）が後続する他ノードＮ１と依存関係にある。

以下、ノードＮｉと他ノードＮｊとの組み合わせとして、ノードＮ０（データアクセス情報５０１）とノードＮ１（データアクセス情報５０２）を例に挙げて説明する。

図７において、更新部４０４は、検出されたノードＮ０をノードＮ０ａ（第２ノード）とノードＮ０ｂ（第１ノード）とに分割する。ここで、ノードＮ０ａは、ノードＮ０のループ処理のうち、他ノードＮ１と依存関係にある一部のループ処理（Ａ［０］）以外のループ処理を持つノードである。

ノードＮ０ｂは、ノードＮ０のループ処理のうち、他ノードＮ１と依存関係にある一部のループ処理（Ａ［０］）を持つノードである。ノードＮ０ｂは、エッジｅ１により他ノードＮ１と接続される。各ノードＮ０ａ，Ｎ０ｂ，Ｎ１は、データアクセス情報７０１，７０２，５０２を有する。

例えば、データアクセス情報７０１は、ノードＮ０ａが有する情報であり、ｓｔｍｔ０ａのループ処理のアクセス範囲「ｌｏｏｐ：１＜＝ｉ＜Ｎ」と、読み込み先の変数「Ａ［ｉ］，Ｂ［ｉ］」と、書き込み先の変数「Ａ［ｉ］」を示す。ｓｔｍｔ０ａは、ノードＮ０ａが表すステートメントである。

また、データアクセス情報７０２は、ノードＮ０ｂが有する情報であり、ｓｔｍｔ０ｂの読み込み先の変数「Ａ［０］，Ｂ［０］」と書き込み先の変数「Ａ［０］」を示す。ｓｔｍｔ０ｂは、ノードＮ０ｂが表すステートメントである。

図８において、更新部４０４は、ノードＮ０ｂと他ノードＮ１とを１タスクとして融合することにより、融合後のノード（Ｎ０ｂ＋Ｎ１）を生成する。これにより、更新部４０４は、別タスクとすると同期が発生してしまうような、依存関係がある処理同士を一つにまとめる。融合後のノード（Ｎ０ｂ＋Ｎ１）は、データアクセス情報８０１を有する。データアクセス情報８０１は、ノード（Ｎ０ｂ＋Ｎ１）が有する情報であり、ｓｔｍｔ０ｂ＋ｓｔｍｔ１の読み込み先の変数「Ａ［０］，Ｂ［０］」と書き込み先の変数「Ａ［０］」を示す。ｓｔｍｔ０ｂ＋ｓｔｍｔ１は、ノード（Ｎ０ｂ＋Ｎ１）が表すステートメントである。

また、更新部４０４は、融合後のノード（Ｎ０ｂ＋Ｎ１）に対して、図９に示すような依存情報９０２を付与することによって、有向グラフ５００を更新する。依存情報９０２は、融合後のノード（Ｎ０ｂ＋Ｎ１）のデータアクセスパターンに基づく情報である。融合後のノード（Ｎ０ｂ＋Ｎ１）のデータアクセスパターンは、データアクセス情報８０１から特定される。

具体的には、依存情報９０２は、ｄｅｐｅｎｄ（ｏｕｔ：Ａ［０］）と、ｄｅｐｅｎｄ（ｉｎ：Ａ［０］，Ｂ［０］）とを含む。ｄｅｐｅｎｄ（ｏｕｔ：Ａ［０］）は、Ａ［０］に対する書き込みがあることを示す。ｄｅｐｅｎｄ（ｉｎ：Ａ［０］，Ｂ［０］）は、Ａ［０］，Ｂ［０］に対する読み込みがあることを示す。なお、図９に示した依存情報９０２の例では、１タスクとして実行される各ｓｔｍｔ０ｂ，ｓｔｍｔ１の処理が記述されている。

また、ノードＮ０から分割したノードＮ０ａは、先行するノードがなく、先行するノードがループ処理を持たない。この場合、更新部４０４は、ハードウェア情報に基づいて、ノードＮ０ａが持つループ処理を複数のタスクに分割する際のタスク粒度を決定する。具体的には、例えば、更新部４０４は、キャッシュラインのサイズに収まるループ長となるようにタスク粒度を決定する。

ここでは、ノードＮ０ａが持つループ処理を複数のタスクに分割する際のタスク粒度が「ｃａｃｈｅ」に決定されたとする。この場合、更新部４０４は、ノードＮ０ａに対して、決定したタスク粒度「ｃａｃｈｅ」を設定するとともに、図９に示すような依存情報９０１を付与することによって、有向グラフ５００を更新する。

依存情報９０１は、ノードＮ０ａのデータアクセスパターンに基づく情報である。ノードＮ０ａのデータアクセスパターンは、データアクセス情報７０１から特定される。具体的には、依存情報９０１は、ｄｅｐｅｎｄ（ｏｕｔ：Ａ［ｉｉ：ｃａｃｈｅ］）と、ｄｅｐｅｎｄ（ｉｎ：Ａ［ｉｉ：ｃａｃｈｅ］，Ｂ［ｉｉ：ｃａｃｈｅ］）とを含む。ｉｉは、１～Ｎ－１の整数である。

ｃａｃｈｅは、キャッシュラインのサイズに応じて決定されたタスク粒度である。このタスク粒度をもとに、ノードＮ０ａが持つループ処理が複数のタスクに分割される。依存情報９０１の例では、例えば、ｉｉの１から一つのキャッシュラインのサイズ分まで、一つ目のタスクが実行し、ｉｉの１から一つのキャッシュラインのサイズ分ずらしたところから、一つのキャッシュラインのサイズ分まで、二つ目のタスクが実行する。

ｄｅｐｅｎｄ（ｏｕｔ：Ａ［ｉｉ：ｃａｃｈｅ］）は、Ａ［ｉｉ：ｃａｃｈｅ］に対する書き込みがあることを示す。ｄｅｐｅｎｄ（ｉｎ：Ａ［ｉｉ：ｃａｃｈｅ］，Ｂ［ｉｉ：ｃａｃｈｅ］）は、Ａ［ｉｉ：ｃａｃｈｅ］，Ｂ［ｉｉ：ｃａｃｈｅ］に対する読み込みがあることを示す。なお、図９に示した依存情報９０１の例では、設定されたタスク粒度「ｃａｃｈｅ」や、１タスクごとに実行されるｓｔｍｔ０ａのループ処理が記述されている。

これにより、依存付きタスク並列記述に変換するために必要となる情報（例えば、依存情報９０１，９０２）が各ノード（例えば、ノードＮ０ａ、融合後のノード（Ｎ０ｂ＋Ｎ１））に付与された有向グラフ５００を得ることができる。

（先行するノードとデータアクセス範囲が揃うようなタスク粒度の決定例）
つぎに、図１０および図１１を用いて、先行するノードとデータアクセス範囲が揃うようなタスク粒度の決定例について説明する。

図１０は、先行ノードの分割例を示す説明図である。図１１は、後続ノードのタスク粒度の決定例を示す説明図である。図１０において、プログラム１０００は、変換対象となるプログラムＰの一例である。この場合、ｓｔｍｔ０を表すノード（「ノードＮ１」とする）と、ｓｔｍｔ１を表すノード（「ノードＮ２」とする）とがエッジによって接続された有向グラフＧが生成される。

ｓｔｍｔ０を表すノードとｓｔｍｔ１を表すノードとの間には、変数Ａ［０：６］の依存関係がある。すなわち、ノードＮ２に先行するノードＮ１がループ処理を持ち、かつ、ノードＮ１とノードＮ２との間で全てのループ処理に依存関係がある。ここで、ハードウェア情報をもとに、ノードＮ１が表すｓｔｍｔ０のループ処理を３タスクに分割する分割粒度が決定されたとする。

データアクセス情報１００１は、ノードＮ１が有する情報であり、ｓｔｍｔ０ａのループ処理のアクセス範囲「ｌｏｏｐ：０＜＝ｉ＜２」と、書き込み先の変数「Ａ［ｉ］」を示す。ｓｔｍｔ０ａは、ｓｔｍｔ０を３分割した場合の１つ目のタスクを示す。

また、データアクセス情報１００２は、ノードＮ１が有する情報であり、ｓｔｍｔ０ｂのループ処理のアクセス範囲「ｌｏｏｐ：２＜＝ｉ＜４」と、書き込み先の変数「Ａ［ｉ］」を示す。ｓｔｍｔ０ｂは、ｓｔｍｔ０を３分割した場合の２つ目のタスクを示す。

また、データアクセス情報１００３は、ノードＮ１が有する情報であり、ｓｔｍｔ０ｃのループ処理のアクセス範囲「ｌｏｏｐ：４＜＝ｉ＜６」と、書き込み先の変数「Ａ［ｉ］」を示す。ｓｔｍｔ０ｃは、ｓｔｍｔ０を３分割した場合の３つ目のタスクを示す。

ここで、図１１の左側に示すように、ノードＮ２が表すｓｔｍｔ１のループ処理を２タスクに分割するとする。ｓｔｍｔ１ａは、ｓｔｍｔ１を２分割した場合の１つ目のタスクを示す。ｓｔｍｔ１ｂは、ｓｔｍｔ１を２分割した場合の２つ目のタスクを示す。この場合、ｓｔｍｔ１ａについて、ｓｔｍｔ０ａとｓｔｍｔ０ｂとの間に依存関係が生じる。また、ｓｔｍｔ１ｂについて、ｓｔｍｔ０ｂとｓｔｍｔ０ｃとの間に依存関係が生じる。

一方、図１１の右側に示すように、ノードＮ２が表すｓｔｍｔ１のループ処理を３タスクに分割するとする。ｓｔｍｔ１ａは、ｓｔｍｔ１を３分割した場合の１つ目のタスクを示す。ｓｔｍｔ１ｂは、ｓｔｍｔ１を３分割した場合の２つ目のタスクを示す。ｓｔｍｔ１ｃは、ｓｔｍｔ１を３分割した場合の３つ目のタスクを示す。

この場合、ｓｔｍｔ１ａについて、ｓｔｍｔ０ａのみとの間に依存関係が生じる。また、ｓｔｍｔ１ｂについて、ｓｔｍｔ０ｂのみとの間に依存関係が生じる。また、ｓｔｍｔ１ｃについて、ｓｔｍｔ０ｃのみとの間に依存関係が生じる。このように、ｓｔｍｔ１を３タスクに分割する場合、２タスクに分割する場合に比べて依存関係が減る。

換言すれば、ｓｔｍｔ１を２タスクに分割する場合、３タスクに分割する場合に比べて依存関係が増えるため、性能が低下する可能性がある。そこで、更新部４０４は、ノードＮ２が持つループ処理を複数のタスクに分割する際のタスク粒度を、先行するノードＮ１と同じタスク粒度に決定する。

これにより、更新部４０４は、依存関係があるループ処理間のデータアクセス範囲を揃えて高速化を図ることができる。

つぎに、図１２を用いて、変換後のプログラムＰの具体例について説明する。

図１２は、変換後のプログラムＰの具体例を示す説明図である。図１２において、プログラム１２００は、依存付きタスク並列記述のプログラムＰの一例であり、更新後の有向グラフ５００に基づき変換された変換後のプログラム３００である。プログラム１２００では、各ステートメントの演算がタスク化され、タスク内で使用されるデータのｒｅａｄ／ｗｒｉｔｅ、例えば、ｄｅｐｅｎｄ（ｏｕｔ：Ａ［ｉｉ：ｃａｃｈｅ］）、ｄｅｐｅｎｄ（ｉｎ：Ａ［０］，Ｂ［０］，Ｃ［０］）などが陽に記述されている。

（情報処理装置２００の変換処理手順）
つぎに、実施の形態２にかかる情報処理装置２００の変換処理手順について説明する。

図１３は、実施の形態２にかかる情報処理装置２００の変換処理手順の一例を示すフローチャートである。図１３のフローチャートにおいて、まず、情報処理装置２００は、変換対象となるプログラムＰを受け付けたか否かを判断する（ステップＳ１３０１）。ここで、情報処理装置２００は、変換対象となるプログラムＰを受け付けるのを待つ（ステップＳ１３０１：Ｎｏ）。

そして、情報処理装置２００は、変換対象となるプログラムＰを受け付けた場合（ステップＳ１３０１：Ｙｅｓ）、プログラムＰ内のステートメント間の依存関係に基づいて、有向グラフＧを生成する（ステップＳ１３０２）。有向グラフＧは、プログラムＰ内のステートメントをノードとし、ステートメント間の依存関係をエッジとした情報である。

つぎに、情報処理装置２００は、有向グラフＧから選択されていない未選択のノードＮｉを選択する（ステップＳ１３０３）。選択元となる有向グラフＧは、ステップＳ１３０２において生成された有向グラフＧ、または、ステップＳ１３０６において各ノードに依存情報が付与された更新後の有向グラフＧである。

この際、情報処理装置２００は、例えば、有向グラフＧのルートノードを最初に選択し、その後、後続のノードを順次選択していく。後続のノードが複数存在する場合、情報処理装置２００は、例えば、複数の後続のノードのうちプログラム上最も近いノードを選択する。また、後続のノードが存在しない場合には、情報処理装置２００は、例えば、最上位の未選択のノードを選択する。

つぎに、情報処理装置２００は、選択したノードＮｉがループ処理を持つか否かを判断する（ステップＳ１３０４）。ここで、ノードＮｉがループ処理を持たない場合（ステップＳ１３０４：Ｎｏ）、情報処理装置２００は、ステップＳ１３０６に移行する。一方、ノードＮｉがループ処理を持つ場合（ステップＳ１３０４：Ｙｅｓ）、情報処理装置２００は、分割・融合処理を実行する（ステップＳ１３０５）。

分割・融合処理は、ノードＮｉを分割して他ノードＮｊと融合する処理である。分割・融合処理の具体的な処理手順については、図１４を用いて後述する。

そして、情報処理装置２００は、各ノードに対してデータアクセスパターンに基づく依存情報を付与することによって、有向グラフＧを更新する（ステップＳ１３０６）。依存情報の付与対象となるノードは、例えば、ステップＳ１３０３において選択されたノードＮｉ、または、後述の図１４に示すステップＳ１４０３において融合された融合後のノードである。また、依存情報には、例えば、後述の図１４に示すステップＳ１４０５またはステップＳ１４０６において決定されたタスク粒度が設定される。

つぎに、情報処理装置２００は、有向グラフＧから選択されていない未選択のノードがあるか否かを判断する（ステップＳ１３０７）。ここで、未選択のノードがある場合（ステップＳ１３０７：Ｙｅｓ）、情報処理装置２００は、ステップＳ１３０３に戻る。

一方、未選択のノードがない場合（ステップＳ１３０７：Ｎｏ）、情報処理装置２００は、更新後の有向グラフＧに基づいて、プログラムＰを変換する（ステップＳ１３０８）。そして、情報処理装置２００は、変換後のプログラムＰを出力して（ステップＳ１３０９）、本フローチャートによる一連の処理を終了する。

これにより、情報処理装置２００は、データ並列記述のプログラムＰを、依存付きタスク並列記述のプログラムＰに変換することができる。

つぎに、図１４を用いて、ステップＳ１３０５の分割・融合処理の具体的な処理手順について説明する。

図１４は、分割・融合処理の具体的処理手順の一例を示すフローチャートである。図１４のフローチャートにおいて、まず、情報処理装置２００は、選択したノードＮｉに接続されてエッジが表す依存関係に基づいて、ノードＮｉの一部のループ処理が先行または後続する他ノードＮｊと依存関係にあるか否かを判断する（ステップＳ１４０１）。

ここで、一部のループ処理が先行または後続する他ノードＮｊと依存関係にない場合（ステップＳ１４０１：Ｎｏ）、情報処理装置２００は、ステップＳ１４０４に移行する。一方、一部のループ処理が先行または後続する他ノードＮｊと依存関係にある場合（ステップＳ１４０１：Ｙｅｓ）、情報処理装置２００は、選択したノードＮｉを第１ノードと第２ノードとに分割する（ステップＳ１４０２）。

ここで、第１ノードは、ノードＮｉのループ処理のうち、他ノードＮｊと依存関係にある一部のループ処理のみを持つノードである。第２ノードは、ノードＮｉのループ処理のうち、他ノードＮｊと依存関係にある一部のループ処理以外のループ処理のみを持つノードである。

そして、情報処理装置２００は、分割した第１ノードと他ノードＮｊとを融合する（ステップＳ１４０３）。つぎに、情報処理装置２００は、選択したノードＮｉ、または、分割した第２ノードに先行するノードがループ処理を持つか否かを判断する（ステップＳ１４０４）。

ここで、先行するノードがループ処理を持たない場合（ステップＳ１４０４：Ｎｏ）、情報処理装置２００は、ハードウェア情報に基づいて、ノードＮｉまたは第２ノードが持つループ処理を複数のタスクに分割する際のタスク粒度を決定して（ステップＳ１４０５）、分割・融合処理を呼び出したステップに戻る。

一方、先行するノードがループ処理を持つ場合（ステップＳ１４０４：Ｙｅｓ）、情報処理装置２００は、先行するノードとデータアクセス範囲が揃うように、ノードＮｉまたは第２ノードが持つループ処理を複数のタスクに分割する際のタスク粒度を決定して（ステップＳ１４０６）、分割・融合処理を呼び出したステップに戻る。

これにより、情報処理装置２００は、ノードＮｉのループ処理の一部分にのみ先行または後続する他ノードＮｊと依存関係がある場合、該当箇所のみを別ノードに分割して、他ノードＮｊと融合することで、タスク生成数を抑えることができる。また、情報処理装置２００は、ハードウェア情報や先行するノードのデータアクセス範囲をもとに、ループ処理を複数のタスクに分割する際の適切なタスク粒度を決定することができる。

以上説明したように、実施の形態２にかかる情報処理装置２００によれば、データ並列記述のプログラムＰ内のステートメント間の依存関係に基づいて、プログラムＰ内のステートメントをノードとし、ステートメント間の依存関係をエッジとした有向グラフＧを生成することができる。また、情報処理装置２００によれば、生成した有向グラフＧ内のエッジが表す依存関係に基づいて、一部のループ処理が先行または後続する他ノードＮｊと依存関係にあるノードＮｉを有向グラフＧから検出することができる。また、情報処理装置２００によれば、検出したノードＮｉを、一部のループ処理を持つ第１ノードと、一部のループ処理以外のループ処理を持つ第２ノードとに分割し、分割した第１ノードと他ノードとを融合し、融合後のノードに対してデータアクセスパターンに基づく依存情報を付与することによって、有向グラフＧを更新することができる。そして、情報処理装置２００によれば、更新後の有向グラフＧに基づいて、データ並列記述のプログラムＰを、依存付きタスク並列記述のプログラムＰに変換することができる。

これにより、情報処理装置２００は、ノードＮｉのループ処理の一部分にのみ先行または後続する他ノードＮｊと依存関係がある場合に、その一部分のみを別ノードに分割して、他ノードＮｊと融合することができる。このため、タスク並列化にあたり、並列性を獲得しつつタスク生成数を抑えることができ、並列化効率を向上させることができる。

また、情報処理装置２００によれば、第２ノードに先行するノードがループ処理を持たない場合、ハードウェア情報に基づいて、第２ノードが持つループ処理を複数のタスクに分割する際のタスク粒度を決定することができる。そして、情報処理装置２００によれば、第２ノードに対して、決定したタスク粒度を設定するとともにデータアクセスパターンに基づく依存情報を付与することによって、有向グラフＧを更新することができる。

これにより、情報処理装置２００は、ハードウェア情報をもとに、ループ処理（複数の処理）を適切な粒度のタスクに分割して並列化効率を向上させることができる。例えば、情報処理装置２００は、ハードウェア情報に含まれるキャッシュラインのサイズに基づいて、第２ノードが持つループ処理を複数のタスクに分割する際のタスク粒度を決定することができる。この場合、一回で処理できるデータ量に相当するキャッシュラインのサイズを考慮してタスク粒度を設定することができ、キャッシュメモリの利用効率を高めつつ、タスク生成数を抑えることができる。

また、情報処理装置２００によれば、第２ノードに先行するノードがループ処理を持つ場合、当該先行するノードとデータアクセス範囲が揃うように、第２ノードが持つループ処理を複数のタスクに分割する際のタスク粒度を決定することができる。具体的には、例えば、情報処理装置２００は、第２ノードに先行するノードがループ処理を持ち、かつ、先行するノードと全てのループ処理に依存関係がある場合に、当該先行するノードとデータアクセス範囲が揃うようにタスク粒度を決定する。そして、情報処理装置２００によれば、第２ノードに対して、決定したタスク粒度を設定するとともにデータアクセスパターンに基づく依存情報を付与することによって、有向グラフＧを更新することができる。

これにより、情報処理装置２００は、依存関係があるループ処理間のデータアクセス範囲を揃えて、タスク間の依存関係が増えるのを防ぎ、高速化を図ることができる。

また、情報処理装置２００によれば、プログラムＰ内のステートメント間のフロー依存、逆フロー依存および出力依存のいずれかのデータ依存に基づく依存関係に基づいて、有向グラフＧを生成することができる。

これにより、情報処理装置２００は、データ依存をもとにした有向グラフＧを生成することができる。

また、情報処理装置２００によれば、変換後のプログラムＰ（依存付きタスク並列記述のプログラムＰ）を出力することができる。

これにより、情報処理装置２００は、変換後のプログラムＰを、コンパイラのランタイムに渡したり、他のコンピュータ（例えば、実行装置）に送信したりすることができる。

これらのことから、実施の形態２にかかる情報処理装置２００によれば、適切な粒度のタスクを設定して並列性を獲得しつつ、タスク生成数を減らしてオーバーヘッドを抑えることができ、ひいては、ＨＰＣプログラムの性能を向上させることができる。

なお、本実施の形態で説明した変換方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本変換プログラムは、ハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ、ＵＳＢメモリ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本変換プログラムは、インターネット等のネットワークを介して配布してもよい。

また、本実施の形態で説明した変換装置１０１（情報処理装置２００）は、スタンダードセルやストラクチャードＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの特定用途向けＩＣやＦＰＧＡなどのＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）によっても実現することができる。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）プログラム内のステートメント間の依存関係に基づいて、前記プログラム内のステートメントをノードとし、前記依存関係をエッジとした有向グラフを生成し、
生成した前記有向グラフ内のエッジが表す依存関係に基づいて、一部のループ処理が先行または後続する他ノードと依存関係にあるノードを前記有向グラフから検出し、
検出した前記ノードを、前記一部のループ処理を持つ第１ノードと、前記一部のループ処理以外のループ処理を持つ第２ノードとに分割し、分割した前記第１ノードと前記他ノードとを融合し、融合後のノードに対してデータアクセスパターンに基づく依存情報を付与することによって、前記有向グラフを更新し、
更新後の前記有向グラフに基づいて、前記プログラムを変換する、
処理をコンピュータに実行させることを特徴とする変換プログラム。

（付記２）前記更新する処理は、
前記第２ノードに先行するノードがループ処理を持たない場合、ハードウェア情報に基づいて、前記第２ノードが持つループ処理を複数のタスクに分割する際のタスク粒度を決定し、前記第２ノードに対して、決定した前記タスク粒度を設定するとともにデータアクセスパターンに基づく依存情報を付与することによって、前記有向グラフを更新する、ことを特徴とする付記１に記載の変換プログラム。

（付記３）前記更新する処理は、
前記第２ノードに先行するノードがループ処理を持つ場合、当該先行するノードとデータアクセス範囲が揃うように、前記第２ノードが持つループ処理を複数のタスクに分割する際のタスク粒度を決定し、前記第２ノードに対して、決定した前記タスク粒度を設定するとともにデータアクセスパターンに基づく依存情報を付与することによって、前記有向グラフを更新する、ことを特徴とする付記１または２に記載の変換プログラム。

（付記４）前記プログラムは、データ並列記述のプログラムであり、
前記変換する処理は、
更新後の前記有向グラフに基づいて、前記データ並列記述のプログラムを、依存付きタスク並列記述のプログラムに変換する、
ことを特徴とする付記１～３のいずれか一つに記載の変換プログラム。

（付記５）前記依存関係は、フロー依存、逆フロー依存および出力依存のいずれかのデータ依存に基づく関係である、ことを特徴とする付記１～４のいずれか一つに記載の変換プログラム。

（付記６）変換後の前記プログラムを出力する、処理を前記コンピュータに実行させることを特徴とする付記１～５のいずれか一つに記載の変換プログラム。

（付記７）前記ハードウェア情報は、キャッシュラインのサイズを含む、ことを特徴とする付記２に記載の変換プログラム。

（付記８）プログラム内のステートメント間の依存関係に基づいて、前記プログラム内のステートメントをノードとし、前記依存関係をエッジとした有向グラフを生成し、
生成した前記有向グラフ内のエッジが表す依存関係に基づいて、一部のループ処理が先行または後続する他ノードと依存関係にあるノードを前記有向グラフから検出し、
検出した前記ノードを、前記一部のループ処理を持つ第１ノードと、前記一部のループ処理以外のループ処理を持つ第２ノードとに分割し、分割した前記第１ノードと前記他ノードとを融合し、融合後のノードに対してデータアクセスパターンに基づく依存情報を付与することによって、前記有向グラフを更新し、
更新後の前記有向グラフに基づいて、前記プログラムを変換する、
処理をコンピュータが実行することを特徴とする変換方法。

１０１変換装置
１１０，１５０，３００，１２００プログラム
１２０，５００有向グラフ
１３０ノード
１４０，９０１，９０２依存情報
２００情報処理装置
２０１ＣＰＵ
２０２メモリ
２０３ディスクドライブ
２０４ディスク
２０５通信Ｉ／Ｆ
２０６ディスプレイ
２０７入力装置
２０８可搬型記録媒体Ｉ／Ｆ
２０９可搬型記録媒体
２１０ネットワーク
２２０バス
４０１受付部
４０２生成部
４０３検出部
４０４更新部
４０５変換部
４０６出力部
５０１，５０２，５０３，５０４，７０１，７０２，８０１，１００１，１００２，１００３データアクセス情報

Claims

プログラム内のステートメント間の依存関係に基づいて、前記プログラム内のステートメントをノードとし、前記依存関係をエッジとした有向グラフを生成し、
生成した前記有向グラフ内のエッジが表す依存関係に基づいて、一部のループ処理が先行または後続する他ノードと依存関係にあるノードを前記有向グラフから検出し、
検出した前記ノードを、前記一部のループ処理を持つ第１ノードと、前記一部のループ処理以外のループ処理を持つ第２ノードとに分割し、分割した前記第１ノードと前記他ノードとを融合し、融合後のノードに対してデータアクセスパターンに基づく依存情報を付与することによって、前記有向グラフを更新し、
更新後の前記有向グラフに基づいて、前記プログラムを変換する、
処理をコンピュータに実行させることを特徴とする変換プログラム。
前記更新する処理は、
前記第２ノードに先行するノードがループ処理を持たない場合、ハードウェア情報に基づいて、前記第２ノードが持つループ処理を複数のタスクに分割する際のタスク粒度を決定し、前記第２ノードに対して、決定した前記タスク粒度を設定するとともにデータアクセスパターンに基づく依存情報を付与することによって、前記有向グラフを更新する、ことを特徴とする請求項１に記載の変換プログラム。
前記更新する処理は、
前記第２ノードに先行するノードがループ処理を持つ場合、当該先行するノードとデータアクセス範囲が揃うように、前記第２ノードが持つループ処理を複数のタスクに分割する際のタスク粒度を決定し、前記第２ノードに対して、決定した前記タスク粒度を設定するとともにデータアクセスパターンに基づく依存情報を付与することによって、前記有向グラフを更新する、ことを特徴とする請求項１または２に記載の変換プログラム。
前記プログラムは、データ並列記述のプログラムであり、
前記変換する処理は、
更新後の前記有向グラフに基づいて、前記データ並列記述のプログラムを、依存付きタスク並列記述のプログラムに変換する、
ことを特徴とする請求項１～３のいずれか一つに記載の変換プログラム。
前記依存関係は、フロー依存、逆フロー依存および出力依存のいずれかのデータ依存に基づく関係である、ことを特徴とする請求項１～４のいずれか一つに記載の変換プログラム。
プログラム内のステートメント間の依存関係に基づいて、前記プログラム内のステートメントをノードとし、前記依存関係をエッジとした有向グラフを生成し、
生成した前記有向グラフ内のエッジが表す依存関係に基づいて、一部のループ処理が先行または後続する他ノードと依存関係にあるノードを前記有向グラフから検出し、
検出した前記ノードを、前記一部のループ処理を持つ第１ノードと、前記一部のループ処理以外のループ処理を持つ第２ノードとに分割し、分割した前記第１ノードと前記他ノードとを融合し、融合後のノードに対してデータアクセスパターンに基づく依存情報を付与することによって、前記有向グラフを更新し、
更新後の前記有向グラフに基づいて、前記プログラムを変換する、
処理をコンピュータが実行することを特徴とする変換方法。